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摘 要 问题 解决 能 力 是 指 在 没有 明显 解决 方法 的 情况 下 个 体 从 事 认 知 加 工 以 理解 和 解 
决 问题 情境 的 能 力 。 对 问题 解决 能 力 的 测量 需要 借助 相对 更 复杂 、 更 真实 、 具 有 可 交互 性 
的 问题 情境 来 诱导 问题 解决 行为 的 呈现 。 使 用 虚拟 测评 抓 取 问题 解决 的 过 程 数据 并 分 析 其 
中 所 列 含 的 潜在 信息 是 当前 心理 计量 学 中 测量 问题 解决 能 力 的 新 趋势 。 首 先 ， 回 顾问 题解 
决 能 力 测量 方式 的 发 展 ， 从 纸 笔 测验 到 虚拟 测评 。 然 后 ， 总 结对 比 两 类 过 程 数据 的 分 析 方 
ik: 统计 建 模 法 和 数据 挖掘 法 。 最后， 从 非 认 知 因素 的 影响 、 多 模 态 数 据 的 利用 、 问 题解 
决 能 力 发 展 的 测量 、 其 他 高 阶 思维 能 力 的 测量 和 问题 解决 能 力 概念 及 结构 的 界定 五 个 方面 
展望 未 来 可 能 的 研究 方向 。 

关键 词 ”问题 解决 能 力 ， 过 程 数 据 ， 虚 拟 测评 ， 计 算 机 化 测验 ， 高 阶 思维 能 力 


1 引言 

“在 现代 社会 里 ， 所 有 生活 都 是 问题 解决 (In modern societies, all of life is problem 
solving)”(p.13, OECD, 2014). Mayer (1990) 将 问题 解决 (problem solving) 定 义 为 在 没有 明显 
解决 方法 的 情况 下 ， 将 一 个 给 定 情境 转换 为 目标 情境 的 认 知 加 工 过 程 。 基 于 此 ，OECD 
(2013) 将 问题 解决 能 力 (problem-solving competence)! 定 义 为 在 没有 明显 解决 方法 的 情况 下 
个 体 从 事 认 知 加 工 以 理解 和 解决 问题 情境 的 能 力 ; 同时 包括 个 体 参 与 问题 解决 的 意愿 。 其 
中 ， 认 知 加 工 可 进一步 细 分 为 (1) 探 索 和 理解 (exploring and understanding)、(2) 表 征 和 构想 
(representing and formulating)、(3) 计 划 和 执行 (planning and executing) 和 (4) 监 测 和 反思 
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研究 对 “competence” 一 词 的 翻译 存在 差异 ， 其 译文 包括 但 不 限于 “能 力 ”、“ 素 养 ” 和 “胜任 力 ”; 针对 问题 解决 这 一 特定 主题 ， 作 者 
认为 将 “competence” 译 为 “能 力 ” 更 合适 也 更 通俗 易 懂 。 但 同时 也 请 读者 留意 其 与 “ability” 和 “capacity” 等 词 的 差异 性 。 
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(monitoring and reflecting)。 我 国 也 于 2016 年 发 布 的 《中 国学 生发 展 核心 素养 》 明 确 将 问 
题解 决 作为 实践 创新 的 基本 点 之 一 ， 强 调 学 生 要 “善于 发 现 和 提出 问题 ， 有 解决 问题 的 兴 
趣 和 热情 ; 能 依据 特定 情境 和 具体 条 件 ， 选 择 制订 合理 的 解决 方案 ， 具 有 在 复杂 环境 中 行 
动 的 能 力 等 ”。 

区 别 于 利用 特定 领域 或 问题 情境 的 专业 知识 或 技能 的 能 力 ， 问 题解 决 能 力 聚 焦 于 能 处 
理 真实 生活 中 所 遇 问 题 的 认 知 技能 ， 其 包括 在 环境 中 获取 和 使 用 新 知识 的 能 力 或 采用 新 方 
式 结合 个 体 已 有 的 知识 去 解决 新 问题 的 能 力 。 作 为 一 种 不 局 限于 特定 问题 (任务 ) 情 境 的 一 
般 化 能 力 ， 问 题解 决 能 力 所 涉 及 的 内 容 远 不 止 对 个 体 所 积累 的 知识 的 再 现 ， 它 还 涉及 到 对 
认 知 和 实践 技能 、 创 造 力 和 其 他 社会 心理 资源 (比如 态度 、 动 机 和 价值 观 ) 的 调动 (OECD， 
2013)。 另 外 , OECD (2013) 对 问题 解决 能 力 的 定义 强调 个 体 在 解决 问题 时 的 认 知 加 工 过 程 ， 
并 明确 指出 “学 生 对 评估 题目 的 作答 一 一 他 们 的 探索 策略 ， 在 建 模 问 题 时 使 用 的 表征 ， 数 
字 和 非 数 字 答 案 , 或 对 问题 如 何 解 决 的 扩展 解释 一 一 将 用 于 推断 他 们 所 采用 的 认 知 加 工 过 
T£" (OECD, 2013, p.122). 

问题 解决 能 力作 为 一 种 重要 的 高 阶 思维 能 力 XAutor & Dorn, 2009)， 是 个 体 适 应 社会 与 
生活 的 必 备 特质 ， 也 是 个 体 胜任 未 来 工作 的 核心 能 力 之 一 。 换 名 话说， 具有 高 水 平 问题 解 
决 能 力 的 人 才 是 促进 新 时 代 社 会 进步 的 主要 动力 。 然 而 ， 对 问题 解决 能 力 的 测量 需要 依托 
于 真实 的 、 复 杂 的 、 具 有 可 交互 性 的 问题 情境 (任务 )， 以 充分 展现 问题 解决 的 过 程 并 保证 
测量 的 效 度 ;: 因此 ， 如 何 实现 对 个 体 问题 解决 能 力 的 客观 测量 不 仅 对 传统 的 心理 测量 方式 
(例如 ， 采 用 诸如 李 克 特 式 题目 的 纸 笔 测验 ) 提 出 了 挑战 ， 也 对 传统 的 心理 测量 数据 分 析 方 
法 和 理论 (例如 ,经典 测 量 理论 (classical test theory, CTT) 和 题目 作答 理论 (item response 
theory, IRT)) 提 出 了 挑战 。 

面 对 信息 智能 时 代 的 全 新 挑战 ， 提 升 高 阶 思维 能 力 、 落 实 核心 素养 ， 并 建构 与 之 相应 
的 新 测评 体系 显得 尤为 迫切 。 近 些 年 ， 随 着 心理 与 教育 测量 理论 与 应 用 研究 的 发 展 ， 尤 其 
是 近 两 年 受 新 冠 肺炎 (COVID-19) 疫 情 的 影响 ， 计 算 机 (网 络 ) 化 测评 形式 逐渐 成 为 人 们 的 关 
注 焦点 和 现实 需求 。 虚 拟 测评 (virtual assessment) 是 指 在 计算 机 化 虚拟 环境 中 进行 的 ， 可 利 
用 虚拟 环境 特性 的 测评 方式 (Agard & von Davier, 2018)， 常 见 的 有 情景 化 (scenario-based)、 


”高 阶 思维 是 指 发 生 在 较 高 层次 水 平 上 的 认 知 活动 ， 包 括 批判 性 思维 、 创 造 性 思维 、 问 题解 决 和 决策 等 ， 其 不 仅 影 响 着 个 体 在 学 业 或 事业 上 的 
表现 ， 也 是 当代 社会 发 展 对 人 才 的 基本 要 求 ( 钟 志 贤 ，2004; Brookhart, 2010; Carroll & Harris, 2020). 
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模拟 化 (simulation-basedJ) 和 游戏 化 (game-based) 测 评 。 虚 拟 测评 是 对 传统 测评 的 革新 ， 它 更 
有 具 真实 性 、 情 景 性 和 趣味 性 ， 能 够 增加 学 生 的 代入 感 、 公 平 感 并 缓解 测验 焦虑 ， 进 而 促使 
学 生 展 现 出 “真实 的 自己 ”(Banfield & Wilkerson, 2014; Li et al., 2015). 使 用 虚拟 测评 探究 学 
生 高 阶 思 维 能 力 或 学 科 核 心 素养 已 成 为 心理 与 教育 测量 的 新 趋势 (Liu et al., 2018; Shute & 
Moore, 2018; PÆ, 2018; WE, 刘 红 云 , 2017)。 比 如 ， 徐 俊 怡 和 李 中 权 (2021) 对 游戏 
化 测评 的 概念 、 范 式 和 实践 应 用 做 了 详细 的 阐述 ; 孙 奢 等 人 (2018) 和 Shute 和 Rahimi (2020) 
采用 游戏 化 测评 分 别 测量 了 学 生 的 推理 能 力 和 创造 力 。 除 带 有 实验 设计 色彩 的 小 规模 测评 
外 ,诸如 国际 学 生 评 估 项 目 (Programme for International Student Assessment, PISA) 和 美国 教 
育 进步 测评 (National Assessment of Educational Progress, NEAP) 等 大 规模 测评 项 目 也 已 经 
开始 使 用 虚拟 测评 工具 来 测量 学 生 的 高 阶 思维 能 力 (OECD, 2016; NCES, 2014)。 比 如 , PISA 
2012 fll NEAP 2014 探究 了 学 生 的 个 体 问题 解决 能 力 ; PISA 2015 探究 了 学 生 的 合作 问题 解 
决 能 力 ; 我 国 国家 基础 教育 质量 监测 也 于 2020 年 开始 使 用 虚拟 测评 工具 测量 学 生 的 科学 
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与 传统 测评 方式 相 比 ， 虚 拟 测评 可 基于 日 志文 件 (log-file) 同 时 抓 取 个 体 作 管 的 结果 数 
据 (outcome data) 和 过 程 数据 (process data)。 结 果 数 据 是 指 诸如 题目 作答 精度 等 传统 数据 ; 
而 过 程 数 据 是 指 带 有 时 间 戳 (time stamp) 的 能 够 反映 个 体 解 决 问题 过 程 的 人 机 或 人 人 交互 
数据 (Bergner & von Davier, 2018; Hao, Shu, & von Davier, 2015), 包括 题目 层面 过 程 数 据 ( 例 
如 ， 题 目 作答 时 间 、 题 目 操作 (鼠标 点 击 ) 次 数 和 答案 修改 ( 斌 错 ) 次 数 ) 和 相对 更 为 精细 的 操 
作 层 面 过 程 数据 (例如 ， 操 作 历 程 、 操 作 时 间 )。 分 析 过 程 数 据 有 助 于 了 解 个 体 的 问题 解决 
过 程 、 探 究 个 体 的 问题 解决 策略 ， 对 精准 诊断 学 习 现状 、 促 进 学 习 发 展 具 有 重要 作用 
(Bergner et al., 2018; Jiao et al., 2019; RÆ, 刘 红 云 , 2020)。 对 过 程 数据 的 分 析 使 得 研究 
重点 从 探究 “结果 是 什么 ”转变 为 探究 “结果 是 如 何 产 生 *(Greiff et al., 2015)。 与 关注 结果 数 
据 的 传统 测评 相 比 ， 人 额外 关注 过 程 数 据 的 虚拟 测评 对 传统 的 测评 数据 分 析 方 法 提出 了 挑 
战 。 如 何 合理 地 分 析 与 利用 过 程 数据 ， 已 成 为 当前 心理 与 教育 测量 学 、 教 育 数据 挖掘 和 学 
习 分 析 等 交叉 学 科 领 域 的 研究 新 热点 与 难点 。 

综 上 所 述 ， 作 为 一 种 高 阶 思维 能 力 ， 问 题解 决 能 力 的 测量 与 传统 心理 特质 的 测量 存在 
较 大 差异 : 前 者 需要 借助 相对 更 复杂 、 更 真实 、 有 具有 可 交互 性 的 问题 情境 来 诱导 问题 解决 
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行为 (过 程 ) 的 呈现 。 换 名 话说， 反映 问题 解决 能 力 的 行为 样本 相 比 于 反映 传统 心理 特质 的 
更 为 复杂 。 这 对 问题 解雇 能 力 的 测量 方式 和 相应 的 数据 分 析 方 法 都 带 来 了 挑战 。 为 回答 如 
何 客观 、 准 确 地 测量 个 体 的 问题 解决 能 力 ， 以 及 如 何 科学 、 合 理 地 分 析 虚 拟 测评 中 的 过 程 
数据 这 两 个 问题 , 如 图 1 所 示 , 本 文 将 围绕 问题 解决 能 力 的 测量 及 数据 分 析 方 法 这 一 主题 ， 
从 (1) 问 题解 决 能 力 测量 方式 的 发 展 以 及 (2) 过 程 性 数据 分 析 方 法 两 个 方面 展开 阐述 ， 并 从 
非 认 知 因素 的 影响 、 多 模 态 数据 的 利用 、 问 题解 决 能 力 的 发 展 和 其 他 高 阶 思 维 能 力 的 测量 
四 个 方面 展望 未 来 可 能 的 研究 方向 ， 以 期 为 国内 学 者 更 全 面 地 了 解 问题 解决 能 力 的 测量 及 
为 过 程 性 数据 的 分 析 方 法 提供 理论 参考 。 
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图 1. 基于 虚拟 测评 中 过 程 数 据 的 问题 解决 能 力 测 量 
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2 问题 解决 能 力 测量 方式 的 发 展 

X 210 早期 问题 解决 能 力 测量 方式 

= 由 于 技术 条 件 的 限制 ， 早 期 间 题 解决 能 力 测量 主要 采用 传统 纸 笔 测验 方式 ， 其 特点 是 
加 基于 文字 表述 给 个 体 营造 一 定 的 问题 情境 ， 常 见于 各 学 科 领 域内 的 学 业 成 就 测验 。Novak 
(1961) 认 为 问题 解决 能 力 的 测试 应 该 允许 被 试 在 多 个 选项 中 选择 其 认为 最 正确 的 答案 ， 同 
时 对 于 被 试 的 每 一 步 选 择 ， 都 应 当 给 予 反馈 。 基 于 此 ，Novak 将 作答 环节 分 成 三 部 分 (如 
2)， 每 一 部 分 提供 给 被 试 两 个 选择 ， 被 试 的 选择 范围 被 箭头 所 限制 ， 但 允许 被 试 返 回 上 一 
部 分 选择 其 他 选项 。 该 测验 过 程 相当 于 被 试 需要 在 相互 关联 的 三 个 部 分 中 分 别 做 出 选择 ， 
且 允 许 被 试 在 不 同 的 作答 阶段 反思 和 修改 之 前 的 选择 (例题 见 附录 图 A1)。 最 后 的 得 分 由 专 
家 依据 被 试 提 交 的 最 络 答案 序列 给 出 (例如 , 122 为 满分 )。 
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例如 


2. Novak (1961) 提 出 的 分 部 作答 模式 


纸 笔 测 验 的 优点 是 易于 大 规模 施 测 、 测 验 工 具 开 发 成 本 较 低 且 对 计算 机 编程 技术 的 依 
赖 程度 较 低 ， 同 时 ， 其 缺点 也 较为 明显 : 一 方面 是 难以 记录 被 试 解决 问题 的 详细 过 程 ( 袁 
建 林 ,， 刘 红云 , 2020)， 另 一 方面 是 难以 构建 真实 的 、 复 杂 的 问题 情境 。 在 真实 的 、 复 杂 的 
问题 情境 中 往往 需要 问题 解决 者 与 问题 情境 产生 实时 交互 , 这 有 助 问题 解决 者 找 出 问题 产 
生 的 原因 并 做 进一步 的 探索 (Greiff et al., 2013)。 

另外 ， 值 得 注意 的 是 ， 即 便 是 在 计算 机 尚未 普及 的 年 代 也 已 出 现 了 小 部 分 虚拟 测评 。 
如 : 模拟 经 营 服装 公司 的 “裁缝 店 (tailor shop)” 和 充当 消防 队长 并 负责 森林 消防 的 “消防 队长 
(fire chief” 系 统 等 Funke, 1983; Omodei & Wearing, 1995)。 对 于 这 些 早期 的 虚拟 测评 ， 由 
于 其 背后 缺乏 统一 的 理论 指导 框架 ， 导 致 它们 对 问题 解决 能 力 的 测量 结果 缺乏 可 比较 性 
( 张 生 等 , 2019)。 对 此 ， 一 些 心 理学 家 认为 在 不 同 领域 中 有 待 解决 的 问题 的 内 容 和 过 程 不 尽 
相同 ， 难 以 提取 出 有 关 问 题解 决 能 力 的 全 局 性 理论 ， 应 专注 于 测量 不 同 领域 下 的 问题 解决 
能 力 (Frensch & Funke, 2002), 如 在 医疗 领域 评估 被 试 的 病人 管理 能 力 和 医疗 问题 解决 能 
的 测评 系统 (Marshall, 1977; Diserens et al., 1986)。 与 之 不 同 ， 另 一 些 持 相 反观 点 的 心理 
家 认为 通过 对 问题 情境 的 设置 可 以 构建 类 似 于 现实 生活 中 的 问题 , 进而 去 评估 被 试 的 综合 
问题 解决 能 力 。 如 开发 了 基于 计算 机 的 情景 模拟 评估 系统 “ 洛 豪 森 市 (Lohhausen)3”， 用 于 分 
析 被 试 在 复杂 环境 下 的 高 阶 思维 能 力 (Doerner, 1980)。 
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” 洛 豪 森 市 (Lohhausen) 是 用 计算 机 模拟 现实 的 一 个 问题 解决 评估 系统 ， 受 试 者 被 要 求 担任 该 市 “市 长 ”， 可 以 通过 调整 税率 、 建 立 住房 等 措施 
来 促进 城市 发 展 。 
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21 世纪 初 ，OECD (2003) 在 前 人 研究 的 基础 上 ,勾画 了 相对 全 面 的 问题 解决 框架 (如 图 
3)。 该 框架 可 分 为 题目 设置 和 问题 解决 方案 生成 两 部 分 。 在 题目 设置 上 ， 问 题 情境 应 贴近 
个 人 生活 或 工作 ， 问 题 类 型 需 侧重 不 同 的 认 知 过 程 ， 同 时 问题 内 容 也 要 涉及 到 不 同学 科 领 
域 的 知识 。 在 问题 解决 方案 生成 上 ， 注 重 学 生 的 内 在 问题 解决 过 程 和 推理 技能 。 施 测 形式 
上 ， 依 然 采用 了 传统 的 纸 笔 测验 形式 ， 用 文字 和 图 片 来 描述 问题 情境 ， 并 基于 每 段 问题 表 
述 设置 不 同类 型 的 问题 ， 如 选择 题 ， 简 答题 等 。 该 框架 结合 现 有 理论 研究 ， 通 过 对 问题 类 
型 的 设置 ， 加 大 了 对 内 在 认 知 过 程 和 推理 技能 的 考量 。 

整体 来 看 , 早期 间 题 解决 能 力 的 测量 主要 采用 传统 纸 笔 测验 。 但 由 于 技术 条 件 的 限制 ， 
纸 笔 测 验 中 以 文字 或 图 片 构建 的 问题 情境 相对 缺乏 真实 性 和 情景 性 ， 不 具备 实时 交互 功 
能 ， 难 以 诱发 个 体 真正 的 问题 解决 能 力 。 可 以 说 ， 面 对 问题 解决 能 力 的 测量 需求 ， 传 统 纸 
笔 测验 方式 已 心 有 余 而 力 不 足 。 对 问题 解决 能 力 等 其 他 高 阶 思 维 能 力 的 测量 需求 促使 测量 
方式 的 发 展 ， 对 个 体内 在 认 知 过 程 的 重视 和 对 现实 问题 情境 模拟 的 追求 也 将 提高 测量 的 生 
态 效 度 。 这 导致 研究 者 对 问题 解决 能 力 测量 新 方式 的 汤 望 ， 而 计算 机 (网 络 ) 的 高 速 发 展 为 
实现 对 问题 解决 能 力 等 其 他 高 阶 思维 能 力 的 测量 带 来 了 希望 。 
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图 3 OECD (2003) 问 题解 决 框架 . 
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2.2 ”利用 虚拟 测评 测量 问题 解决 能 

以 个 体 为 中 心 的 测评 应 做 到 在 真实 情景 中 对 个 体 的 过 程 性 表现 进行 测评 ， 并 给 予 适当 
的 反馈 。 比 如 , Diehl 等 人 (2005) 基 于 修订 的 可 观察 日 常生 活 任务 测验 (revised observed tasks 
of daily living) 考 察 老年 人 的 问题 解决 能 力 。 该 测验 要 求 被 试 在 日 常生 活 环境 中 完成 药物 使 
用 、 电 话 使 用 和 财务 管理 等 任务 ， 由 主 试 观察 并 记录 下 的 任务 完成 情况 进行 打分 。 虽 然 这 
种 基于 真实 情景 的 施 测 方式 提高 了 测验 的 生态 效 度 , 但 其 施 测 成 本 和 对 主 试 的 高 要 求 阻碍 
了 该 测验 的 大 规模 的 使 用 。 鉴 于 在 真实 情景 中 进行 大 规模 施 测 缺乏 可 操作 性 (例如 ， 成 本 
过 高 、 数 据 记 录 不 全 等 )， 可 在 大 规模 测评 中 实时 并 完整 抓 取 个 体 作答 过 程 数据 的 虚拟 测 
评 逐 渐 受 到 人 们 的 关注 (Jiao & Lissitz, 2018)。 美 国 心 理学 会 也 曾 把 利用 虚拟 工具 (例如 , 游 
戏 ) 促 进 学 习 列 入 到 2019 年 需要 关注 的 10 个 心理 学 研究 趋势 之 中 (Weir 2018)。 

虚拟 测评 工具 的 开发 是 一 个 相对 复杂 的 过 程 。 相 比 于 传统 测评 工具 (例如 ， 李 克 特 量 
表 )， 虚 拟 测评 工具 的 开发 成 本 更 高 、 周 期 更 长 。 因 此 ， 程 序 开 发 和 测验 设计 等 人 员 在 较 
为 统一 的 工具 开发 框架 下 进行 及 时 沟通 是 必要 的 。 同 时 ， 这 也 有 助 于 保证 测量 结果 之 间 的 
可 比 性 。 目 前 ， 大 多 数 虚拟 测评 工具 是 基于 证 据 中 心 设 计 (evidence-centered design, ECD; 
Mislevy et al., 2003) 框 架 开发 的 (Shute et al., 2017)。 该 框架 认为 测量 是 “基于 证 据 进 行 推理 ” 
的 过 程 ， 其 核心 内 容 是 对 能 力 模型 、 证 据 模型 和 任务 模型 的 界定 。 其 中 ,能 力 模型 界定 “ 测 
什么 "， 证 据 模 型 界定 “怎么 测 ”， 任 务 模型 界定 “用 什么 工具 测 ”( 如 图 4 所 示 )。 另 外 ， 还 有 
界定 “如 何 组 装 测验 ”的 组 装 模 型 和 “如 何 呈 现任 务 ” 的 呈现 模型 ， 用 于 测验 整体 的 构建 。 该 
框架 系统 地 阐明 了 复杂 测验 设计 的 基本 结构 、 各 部 分 的 内 涵 与 功能 及 相互 之 间 的 关系 ， 适 
用 于 高 阶 思维 能 力 或 学 科 核心 素养 的 测评 工具 开发 ( 袁 建 林 , 刘 红云 , 2017)。 

比如 ，Zhao 等 人 (2015) 基 于 ECD 构建 了 游戏 化 测评 ， 用 于 测量 被 试 的 问题 解决 能 
在 能 力 模型 中 ， 从 “理解 问题 给 定 的 条 件 和 约束 ”、“ 规 划 解 决 方案 路 径 >、“ 是 否 有 效 或 高 效 
率 地 使 用 工具 ”和 “监测 和 评估 问题 解决 过 程 ” 四 个 方面 去 评估 被 试 的 问题 解决 能 力 。 在 任 
务 模型 中 ， 选 用 了 植物 大 战 僵尸 4 这 款 游戏 作为 被 试 要 完成 的 目标 ， 并 设 定 了 相应 的 任务 
难度 及 游戏 时 长 (附录 图 A2)。 在 证 据 模 型 的 界定 中 ， 从 可 观测 的 变量 中 提取 了 一 些 行 为 指 
标 与 能 力 模型 建立 了 联系 (附录 图 A3)， 并 用 贝 叶 斯 网 去 搭建 各 变量 之 间 的 数学 关系 。 该 游 


由 


”植物 大 战 僵尸 是 一 款 策略 塔 防 类 游戏 ， 玩 家 需要 收集 阳光 ， 安 置 不 同 的 植物 ， 使 用 其 功能 以 阻挡 僵尸 的 入 侵 。 
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戏 测评 结果 与 MircoDYN5 测 试 结果 相关 显著 (x = 0.48, p < 0.01)， 基 于 聚合 效 度 ， 表 明了 该 
游戏 化 虚拟 测评 的 有 效 性 。 

此 外 ， 如 上 文 所 述 ， 目 前 诸如 PISA 和 NEAP 等 大 规模 测评 项 目 也 已 经 开始 使 用 虚拟 
测评 工具 来 测量 学 生 的 问题 解决 能 力 ， 比 如 ，PISA 2012 和 NEAP 2014 探究 了 学 生 的 个 体 
问题 解决 能 力 , PISA 2015 探究 了 学 生 的 合作 问题 解决 能 力 。 以 PISA 2012 的 一 道 题 为 例 ( 如 
附录 图 A4 所 示 )， 题 目 呈现 了 一 个 MP3 播放 器 ， 学 生 需 通过 点 击 播放 器 的 按钮 来 了 解 其 
工作 原理 。 在 此 基础 上 ， 学 生 需 回答 题目 对 应 的 4 个 问题 。 每 个 问题 则 侧重 考察 学 生 问题 
解决 中 不 同 的 认 知 过 程 , 例如， 第 一 问 主 要 考察 学 生 对 题目 的 探索 和 理解 、 第 二 问 主要 考 
察 学 生 问 题解 决 中 的 计划 和 执行 能 力 等 。 该 测验 通过 向 学 生 呈 现 生活 中 可 能 遇 到 的 问题 来 
实现 对 其 问题 解决 能 力 的 评估 ， 测 评 结果 由 系统 判定 和 专家 评分 两 部 分 组 成 。 同 时 ， 大 规 
模 的 国际 化 虚拟 测评 也 为 各 国 、 各 地 区 之 间 在 人 才 培 养 方面 提供 了 参考 借鉴 的 机 会 。 
Competency 
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图 4. 证 据 中 心 设计 框架 中 的 能 力 模型 、 证 据 模 型 和 任务 模型 (Zhao et al., 2015). 


3 过程 性 数据 分 析 方 法 

鉴于 虚拟 测评 的 新 颖 性 及 过 程 数 据 的 复杂 性 ， 国 内 外 关于 过 程 数 据 的 分 析 方 法 的 研究 
均 处 于 起 步 阶段 ,经 过 梳理 , 大 体 可 将 现 有 的 过 程 数 据 分 析 方 法 分 为 两 类 : 数据 挖掘 法 (data 
mining) 和 统计 建 模 法 (statistical modeling)。 其 中 ， 前 者 属于 探索 性 研究 方法 或 归纳 法 ， 是 
基于 数据 驱动 的 自 下 而 上 的 研究 方法 ， 强 调 从 已 有 数据 入 手 ， 对 数据 进行 描述 、 分 析 、 总 
结 和 归纳 理论 ， 遵 循 着 “发 现 的 逻辑 ”; 而 后 者 属于 验证 性 方法 或 演绎 法 ， 是 基于 理论 驱动 


? MircoDYN 是 一 个 基于 计算 机 交互 式 的 动态 问题 解决 评估 系统 ， 该 系统 将 多 个 任务 嵌入 线性 结构 方程 框架 用 来 评估 被 试 的 动态 问题 解决 能 力 。 
详细 内 容 可 见 Greiff et al. (2012). 
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的 自 上 而 下 的 研究 方法 ,强调 从 理论 出 发 ,生成 假设 , 再 用 数据 检验 ,接受 或 者 拒绝 假设 ， 
遵循 着 “证 明 的 逻辑 ”。 如 图 S 所 示 , 两 种 方法 的 使 用 形成 了 一 个 循环 的 研究 过 程 (Johnson & 
Christensen, 2014)， 推 动 着 科学 研究 的 发 展 。 


验证 性 


SZ 
假设 、 预 测 


图 5. 循环 研究 过 程 (Johnson & Christensen, 2014) 


3.1 数据 挖掘 法 

基于 虚拟 测评 产生 的 过 程 数据 ， 因 其 数据 结构 的 不 规则 性 和 来 源 的 复杂 性 ， 大 幅度 增 
加 了 分 析 难 度 。 过 程 数据 背后 蕴藏 着 与 问题 解决 有 关 的 认 知 加 工 过 程 ， 需 要 采用 特定 的 方 
法 来 挖掘 和 分 析 。 数 据 挖掘 是 指 从 大 量 数据 中 通过 算法 来 揭示 有 意义 的 新 的 关系 、 趋 势 和 
模式 的 过 程 ( 王 光 宏 ， 蒋 平 , 2004)， 是 “从 数据 中 发 现 知识 规律 (nowledge discovery in 
databases)"(Fayyad et al., 1996) 的 过 程 。 通 过 数据 挖掘 来 探索 过 程 数据 所 蕴含 的 潜在 信息 是 
教育 数据 挖掘 领域 的 主要 研究 逻辑 ， 目 前 主要 涉及 有 监督 学 习 (supervised learning) 算 法 和 
无 监督 学 习 (unsupervised learning) 算 法 这 两 类 。 

有 监督 学 习 算法 是 通过 已 有 的 训练 样本 ( 即 已 知 数据 及 其 对 应 的 类 别 ) 来 训练 分 类 器 
(classifienD)， 再 利用 训练 后 的 最 优 分 类 器 将 新 的 研究 样本 映射 到 相应 的 类 别 中 , 其 中 类 别 总 
数 是 已 知 且 固定 的 。 目 前 ， 使 用 有 监督 学 习 算 法 分 析 过 程 数据 的 研究 还 较 少 ， 而 决策 树 
(decision tree) 是 被 使 用 相对 较 多 的 一 类 算法 ， 主 要 包括 分 类 和 回归 树 (CART; DiCerbo & 
Kidwai, 2013) 及 随机 森林 (random forest; Hao et al., 2016; PÆ, 2018) 这 两 种 方法 。 比 如 ， 
为 了 探索 可 以 有 效 预测 被 试 反映 的 特征 ，Han 等 人 (2019) 从 被 试 的 行为 序列 、 有 策略 意义 
的 行为 指标 和 时 间 纬 度 三 个 方面 初步 提取 了 77 个 特征 变量 ， 通 过 随机 森林 和 递归 特征 消 
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除法 筛选 出 13 个 最 有 高 预测 表现 的 特征 变量 。 例如， 是 否 应 用 “一 次 只 改变 一 个 变量 (vary 
one thing at a time )”* 策 略 和 应 用 该 策略 的 次 数 这 两 个 特征 变量 都 能 有 效 预测 被 试 是 否 有 较 
大 概率 成 功 解决 问题 。 

无 监督 学 习 算法 是 在 事先 没有 任何 训练 样本 的 情况 下 ， 直 接 根 据 研究 样本 之 间 的 相似 
性 对 样本 进行 分 类 ， 并 试图 使 类 内 差距 最 小 化 且 类 间 差 距 最 大 化 ， 其 中 类 别 总 数 是 未 知 且 
不 固定 的 。 目 前 ， 在 对 个 体 问题 解决 策略 进行 分 类 时 ， 主 要 采用 聚 类 分 析 (cluster analysis; 
Bergner et al., 2014) 和 自 组 织 映射 神经 网 络 (SOM; Soller & Stevens, 2007)。 鉴 于 不 同 的 无 监 
督学 习 算法 可 能 会 给 出 有 差异 的 分 类 结果 ， 有 研究 建议 同时 使 用 多 种 无 监督 学 习 算法 ， 比 
如 Fossey(2017) 对 比 了 三 种 无 监督 的 学 习 算 法 ， 包 括 k-means. SOM 和 使 用 链接 的 鲁 棒 聚 
类 算法 (ROCK); Qiao 和 Jiao(2018) 针 对 同一 批 数据 同时 研究 了 四 种 有 监督 学 习 算 法 
(CART、 随 机 和 森林、 梯度 提 升 决策 树 和 支持 向 量 机 ) 和 两 种 无 监督 学 习 算 法 (k-means F SOM) 
的 表现 。 

该 方法 的 优势 在 于 基于 训练 好 的 分 类 器 或 者 不 同 的 聚 类 规则 便 可 快速 实现 对 个 体 问题 
解决 能 力 的 分 类 ， 同 时 应 用 数据 挖掘 算法 也 能 快速 帮助 研究 者 从 高 维 复杂 的 数据 中 挖掘 出 
有 统计 意义 的 信息 ， 但 该 方法 在 心理 学 领域 中 的 应 用 和 推广 还 需要 理论 基础 的 支撑 。 一 方 
面 就 数据 挖掘 算法 而 言 ， 其 任务 是 从 数据 中 挖掘 隐藏 在 数据 中 的 模式 ， 刻画 当前 数据 特征 
或 构建 高 预测 率 模型 ( 王 光 宏 等 , 2004)。 但 其 构建 的 模型 或 得 出 的 结论 有 时 并 不 能 给 我 们 带 
来 任何 启示 , 甚至 是 无 用 的 。 对 大 数据 的 处 理 , 要 注重 对 其 背后 含义 的 理解 ( 吴 必 等 , 2019)。 
另 一 方面 ， 就 数据 挖掘 在 心理 学 中 的 应 用 而 言 ， 心 理学 领域 注重 数据 结果 的 可 解释 性 或 其 
折射 出 的 基于 个 体 或 群体 的 心理 过 程 和 潜在 特质 等 。 过 程 数据 的 价值 在 于 其 背后 对 应 的 心 
理 过 程 , 单纯 的 数据 驱动 无 法 在 跨 任 务 的 操作 中 提取 或 者 构造 出 可 反映 个 体 自身 潜在 水 平 
的 变量 (He et al., 2021)， 很 难得 出 有 效 可 靠 的 结论 ， 往 往 需 要 专家 的 进一步 介入 。 比 如 ， 
在 特定 情景 中 ， 需 要 专家 界定 出 最 优 行为 序列 、 判 断 异 常 行为 或 解读 数据 分 析 结 果 (Hao et 
al.,2015; He et al.,2021; He & von Davier, 2016; Qiao & Jiao, 2018 )。 另 外 ， 对 于 特定 任务 下 
结论 的 有 效 性 也 应 持 有 怀疑 的 态度 。 比 如 ，Qiao 和 Jiao (2018) 的 研究 发 现 所 有 方法 均 表 现 
出 满意 的 分 类 一 致 性 ， 但 在 此 研究 中 并 未 发 现时 间 信 息 作为 分 类 依据 的 重要 性 ， 这 与 其 他 
已 有 研究 观点 不 同 (Chen, 2020; Molenaar et al., 2016; Ulitzsch et al., 2021)。 再 有 ， 在 数据 的 
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预 处 理 方面 ， 如 数据 的 筛选 、 排 序 、 编 码 等 ， 处 理 方法 也 常常 因数 据 类 型 、 分 析 目 的 和 选 
用 算法 的 不 同 而 不 同 ; 对 缺失 数据 极端 值 和 重复 行为 序列 的 处 理 也 且 尚 无 内 在 统一 标准 。 
32 ”统计 建 模 法 

统计 建 模 法 主要 是 指 利用 人 工 建 模 的 思路 来 分 析 数 据 的 方法 。 在 统计 建 模 中 ， 一 般 基 
于 理论 假设 构建 函数 模型 ， 同 时 假设 观测 变量 是 由 该 模型 所 表达 的 概率 法 则 随机 生成 的 
QRZ, 汪 寿 阳 , 2021)。 通过 统计 模型 来 解释 过 程 数据 所 蕴含 的 潜在 信息 是 心理 计量 学 
的 主要 研究 逻辑 (Bergner & von Davier, 2018). 符合 心理 计量 学 的 基本 假设 : 个 体 的 内 隐 ( 洪 
在 ) 特 质 决 定 其 外 显 行为 。 目 前 ， 针 对 记录 下 的 过 程 数据 和 结果 数据 ， 统 计 建 模 法 主要 包 
括 心 理 计 量 联 合 建 模 (psychometric joint modeling) 、 隐 马尔 可 夫 建 模 (hidden Markov 
modeling) 和 多 水 平 建 模 (multilevel modeling) 等 。 

心理 计量 联合 建 模 是 目前 最 常见 的 题目 层面 过 程 数据 分 析 方 法 。 该 方法 的 逻辑 是 基于 
IRT 视角 下 的 联合 -层级 建 模 框架 (joint-hierarchical modeling framework; van der Linden, 
2007)， 建 构 针对 不 同 数据 源 (例如 ， 题 目 作答 结果 和 题目 作答 时 间 ) 的 心理 计量 模型 ， 然 后 
使 用 多 元 正 态 分 布 描述 多 种 潜在 特质 之 间 的 关系 。 目 前 ,该 方法 分 析 的 过 程 数据 主要 是 题 
目 作 答 时 间 。 基 于 此 ， 研究 者 们 提出 了 一 系列 的 联合 模型 用 于 探究 个 体 潜在 能 力 、 加 工 速 
度 及 两 者 之 间 的 关系 (Fox & Marianti, 2016; Man et al., 2019; Molenaar et al., 2018; Zhan & 
He, 2021; 詹 沛 达 , 2019)。 此 外 ， 为 满足 当前 实践 对 诊断 性 测评 的 需求 ，Zhan 等 人 (2018) 
从 认 知 诊断 视角 对 联合 建 模 框架 进行 拓 广 , 所 提出 的 联合 认 知 诊断 建 模 框架 允许 研究 者 使 
用 不 同 的 高 阶 认 知 诊断 模型 (e.g., de la Torre & Douglas, 2004) 和 作答 时 间 模 型 (van der 
Linden, 2006) 分 别 作为 作答 结果 和 作答 时 间 的 测量 模型 ， 进 而 可 以 同时 探究 个 体 的 一 般 学 
习 能 力 、 属 性 、 加 工 速度 及 它们 之 间 的 关系 。 

隐 马 尔 可 夫 建 模 假设 个 体 的 解 题 历程 符合 马尔 可 夫 过 程 并 受 个 体 潜在 能 力 的 影响 ， 侧 
重 对 问题 解决 过 程 的 建 模 。 其 中 , 个 体 的 解 题 历程 包括 外 显 的 操作 步骤 和 内 在 认 知 状态 的 
变化 (如 ， 问 题 表 征 、 策 略 使 用 )， 马 尔 可 夫 过 程 是 研究 离散 事件 动态 系统 状态 空间 的 一 种 
方法 , 是 指 在 一 个 随机 过 程 中 事物 的 未 来 状态 仅 依 赖 于 当前 状态 而 与 过 去 状态 无 关 。Baker 
等 人 (2011) 在 其 研究 中 验证 了 马尔 可 夫 过 程 作为 认 知 模型 的 可 行 性 ， 且 马尔 科 夫 过 程 已 被 
广泛 应 用 于 过 程 数 据 的 建 模 中 (Shu et al., 2017). Molenaar 等 人 (2016) 把 隐 马 尔 可 夫 模 型 引 
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入 到 联合 建 模 框架 中 ， 把 个 体 按 特定 顺序 的 作答 视 为 马尔 可 夫 过 程 ， 通 过 分 析 个 体 在 不 同 
题目 上 作答 时 间 的 变化 探究 他 们 个 体内 (within-subject) 加 工 速 度 的 变化 情况 。 鉴 于 作答 时 
间 可 以 在 一 定 程度 上 反映 个 体 对 知识 的 精 熟 程度 ，Wang 等 人 (2018) 在 认 知 诊断 视角 下 提 
出 了 高 阶 隐 马 尔 可 夫 模 型 , 通过 分 析 个 体 在 纵向 测验 上 作答 时 间 的 变化 测量 他 们 的 学 习 进 
步 情 况 。 实 际 上 ， 上 述 两 个 研究 所 分 析 的 仍 是 题目 作答 时 间 。 与 之 不 同 ，Shu 等 人 (2017) 
针对 个 体 的 问题 解决 过 程 (操作 历程 ) 提 出 了 马尔 可 夫 IRT 模型 ， 认 为 个 体 的 当前 操作 与 其 
上 一 步 操作 和 其 潜在 能 力 有 关 。 该 模型 把 所 有 可 能 的 相 邻 操作 行为 视 为 操作 层面 "题目 ”， 
进而 根据 个 体 在 “题目 * 上 的 “作答 (例如 ， 是 否 呈现 该 操作 ) 去 估计 其 潜在 能 力 。 该 模型 巧 
妙 地 将 个 体 的 问题 解决 过 程 转换 为 操作 层面 观察 分 数 ， 实 现 了 在 单 题 内 估计 个 体 潜在 能 
力 ， 为 后 续 研究 提供 了 借鉴 和 参考 。 

在 传统 心理 统计 中 ， 多 水 平 建 模 (multilevel modeling) 常 用 于 分 析 因 分 层 抽 样 导 致 含有 
嵌 套 关系 的 数据 。 通 过 多 水 平 建 模 可 将 个 体 水 平 上 个 体 数 据 之 间 的 变异 分 解 为 班级 、 学 
校 或 地 区 等 不 同 水 平 上 的 变异 ， 有 助 剥 离 出 造成 个 体 之 间 差 异 的 真实 原因 ( 刘 红 云 ， 骆 方 ， 
2008). Liu 等 人 (2018) 将 该 逻辑 迁移 至 过 程 数据 分 析 中 ， 假 设 由 人 工 赋 分 得 到 的 操作 层面 
分 数 代 套 于 个 体 个 体 水 平 ， 并 基于 该 逻辑 提出 了 适用 于 分 析 操 作 历 程 数据 的 多 水 平 混合 
IRT 模型 。 该 研究 与 Shu 等 人 (2017) 类 似 的 是 需要 先 对 个 体 的 问题 解决 历程 进行 人 工 赋 分 ; 
所 不 同 的 是 该 研究 把 所 有 可 操作 项 (例如 ， 可 选 路 线 ) 视 为 操作 层面 “题目 "， 把 个 体 的 特定 
操作 行为 视 为 操作 层面 “人 ”， 然 后 根据 “人 "在 “题目 "上 的 “作答 ”去 估计 其 潜在 能 力 。 鉴 于 
该 模型 同时 包含 了 IRT 模型 、 潜 在 类 别 模型 和 多 水 平 模型 的 特点 ， 它 可 在 单 题 内 估计 个 体 
的 问题 解决 能 力 并 判断 其 所 采用 的 问题 解决 策略 。 

除 此 之 外 , 近 些 年 也 有 研究 尝试 利用 题目 扩张 技术 (即将 一 道 虚拟 测评 题目 中 正确 解答 
所 需 的 操作 流程 拆 解 为 多 个 子 流程 (或 步骤 )， 并 将 这 些 子 流程 视 为 相互 条 件 独 立 的 虚假 题 
H (pseudo item); 然后 根据 个 体 在 解决 问题 过 程 中 是 否 呈 现 出 这 些 子 流程 , 对 其 进行 赋 分 )， 
直接 使 用 传统 的 心理 计量 模型 对 过 程 数 据 进行 分 析 (Zhan & Qiao, 2020)。 这 种 做 法 虽然 增 
加 了 数据 预 处 理 的 难度 , 但 大 幅度 降低 了 数据 分 析 的 难度 , 为 分 析 过 程 数据 提供 了 新 思路 。 
3.3 ”两 种 方法 的 对 比 


平 数据 的 分 布 在 个 体 之 间 不 具备 独立 性 ， 存 在 地 理 距 离 内 、 某 行政 区 域内 或 者 特定 空间 范围 内 的 聚集 性 (clustering) 或 相似 性 。 
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近 些 年 , 在 智能 时 代 背 景 下 , 研究 者 们 愈 发 倾向 于 在 技术 增强 环境 (technology-enhanced 
environmenb 中 探索 心理 与 教育 测量 的 新 范式 。 虚 拟 测评 和 数据 挖掘 技术 因 其 “智能 ”属性 更 
容易 引起 研究 者 和 实践 者 的 关注 。 比 如 ， 利 用 游戏 化 测评 来 测量 个 体 的 高 级 认 知 技能 ， 并 
采用 数据 挖掘 技术 分 析 数 据 以 实现 对 个 体 分 类 (Qiao & Jiao, 2018)。 实 际 上 ， 数 据 挖掘 技术 
与 潜 变 量 建 模 在 底层 逻辑 上 存在 差异 : 后 者 主要 关注 的 是 隐藏 在 外 显 行为 数据 背后 的 潜在 
变量 ， 即 假设 潜在 变量 决定 外 显 行为 ， 并 通过 潜 变量 模 型 实现 对 两 者 的 联接 ， 而 前 者 仅 关 
注 外 显 行为 数据 的 分 析 ， 通 过 计算 数据 之 间 的 相似 性 或 距离 对 数据 进行 分 类 或 聚 类 。 对 数 
据 挖掘 技术 而 言 ， 因 为 不 存在 理论 假设 的 因果 关系 ， 所 以 我 们 难以 利用 其 结果 来 反 推导 致 
该 结果 的 原因 。 因 此 ， 数 据 挖掘 技术 的 结果 可 解释 性 通常 低 于 潜 变 量 模 型 的 ， 而 结果 的 可 
解释 性 恰恰 是 心理 与 教育 测量 的 重点 。 

整体 而 言 ， 采 用 统计 建 模 法 分 析 过 程 数 据 的 主要 优势 是 结果 的 易 解释 性 且 符 合 心理 与 
教育 研究 的 一 般 过 程 (如 图 6 所 示 ); 其 局 限 性 是 需要 针对 不 同类 型 的 过 程 数据 分 别 建 模 ， 
这 也 导致 目前 针对 不 同类 型 过 程 数据 的 建 模 逻 辑 尚未 统一 。 而 数据 挖掘 法 的 主要 优势 是 可 
以 同时 考虑 多 种 过 程 数据 ， 其 局 限 性 是 结果 的 可 解释 性 较 差 ， 即 无 法 直接 报告 个 体 的 具体 
不 足 ， 仍 需 采 用 专家 判断 法 做 推断 。 然 而 , 在 心理 与 教育 测量 中 , 尤其 是 在 诊断 性 测量 中 ， 
结果 的 易 解 释 性 显得 尤为 重要 。 另外, 现 有 的 数据 挖掘 方法 主要 是 基于 观察 变量 进行 分 类 ， 
而 非 基 于 个 体 的 潜在 特质 (例如 , 认 知 过 程 或 知识 技能 ) 进 行 分 类 ， 在 数据 源 和 数据 量 有 限 
的 情况 下 两 种 分 类 结果 并 不 完全 等 同 (Liu & Cheng, 2018)。 反 观 ， 基 于 潜在 特质 进行 分 类 ， 
明确 指出 个 体 在 特定 的 认 知 过 程 或 知识 技能 上 的 不 足 ， 有 助 于 教师 或 干预 者 有 针对 性 地 制 
定 补救 教学 或 干预 方案 。 

实际 上 ， 数 据 挖掘 法 和 统计 建 模 法 各 具 优 势 ， 在 心理 与 教育 测量 中 ， 它 们 适用 于 解雇 
不 同 的 问题 。 前 者 更 适用 于 在 具有 多 变量 且 不 满足 特定 概率 密度 函数 的 复杂 数据 情境 下 挖 
掘 隐藏 的 规律 ， 并 依据 这 些 规 律 对 个 体 进行 分 类 ， 但 同时 又 不 需要 解释 分 类 的 具体 原因 的 
场景 。 比 如 ， 在 自 适 应 学 习 系 统 中 根据 学 生 的 学 习 时 长 、 练 习 结果 、 内 容 偏 好 等 多 变量 的 
数据 进行 分 类 ， 进 而 推荐 适合 的 学 习 内 容 ， 或 依据 特定 评分 (级 ) 规 则 对 文字 内 容 ( 例 如 ， 作 
文 ) 进 行 自动 评分 (级 )。 由 于 数据 挖掘 法 解决 的 是 分 类 问题 ， 所 以 采用 该 方法 的 研究 常 以 分 
类 结果 来 报告 个 体 问 题解 决 能 力 之 间 的 差异 (如 正确 组 "“ 元 余 行 为 组 "“ 离 群 组 ”等 (Qiao 
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& Jiao, 2018))。 相 比 之 下 ， 后 者 更 适用 于 在 满足 特定 概率 密度 函数 的 数据 情境 下 ， 基 于 概 
率 密 度 函 数 构建 可 联接 外 显 行为 与 潜在 特质 的 统计 模型 ， 并 依据 这 些 统计 模型 实现 对 个 体 
潜在 特质 水 平 或 类 别 的 估计 。 比 如 , 针对 题目 作答 精度 数据 , 基于 Logistic 函数 构建 的 IRT 
模型 ， 并 依据 RT 模型 实现 对 潜在 能 力 水 平 的 估计 ; 或 针对 题目 作答 时 间 ， 基 于 对 数 正 态 
分 布 函数 构建 题目 作答 时 间 模 型 ， 并 依据 题目 作答 时 间 模 型 实现 对 潜在 加 工 速度 水 平 的 估 
计 。 由 于 统计 建 模 法 以 被 试 参数 的 形式 来 反映 个 体 的 问题 解决 能 力 ， 所 以 采用 该 方法 的 研 
究 对 问题 解决 能 力 的 报告 形式 是 由 被 试 参数 的 类 型 决定 的 。 比 如 ，Shu 等 人 (2017) 用 连续 
潜 变 量 表示 个 体 的 问题 解决 能 力 ，Zhan 和 Qiao (2020) 用 连续 变量 表示 个 体 的 一 般 问 题解 
决 能 力 并 用 类 别 变量 表示 个 体 的 问题 解决 策略 。 

以 基于 特定 问题 拟 将 个 体 的 问题 解决 能 力 分 为 “高 "、“ 中 ”和 “ 低 ” 三 个 类 别 为 例 。 若 采 
用 数据 挖掘 法 ， 比 如 有 监督 学 习 算 法 ， 就 需要 先 采 用 专家 判断 法 对 已 知 的 典型 行为 数据 打 
标签 (如 ， 包 含 哪些 行为 表现 的 数据 可 以 被 标记 为 “高 )， 然 后 将 训练 数据 和 对 应 标签 放 入 
分 类 器 进行 训练 ， 再 用 训练 好 的 分 类 器 去 分 析 个 体 解决 该 问题 时 的 行为 数据 ， 进 而 实现 对 
个 体 问题 解决 能 力 的 分 类 ; 而 若 采 用 统计 建 模 法 ， 就 需要 先 对 观测 到 的 行为 数据 进行 描述 
性 统计 ， 判 断 其 分 布 形态 是 否 符合 某 种 概率 密度 函数 ， 然 后 基于 该 概率 密度 函数 构建 同时 
包含 反映 问题 解决 能 力 的 被 试 参 数 和 题目 参数 的 统计 模型 (其 中 被 试 参数 应 为 类 别 变量 )， 
再 用 所 构建 的 模型 去 分 析 个 体 解决 该 问题 时 的 行为 数据 ,进而 实现 对 个 体 问 题解 决 能 力 的 
参数 估计 。 

目前 ， 虚 拟 测 评 中 过 程 数 据 的 主要 作用 还 是 为 测量 个 体 的 问题 解决 能 力 提供 信息 ， 仍 
遵循 不 可 观测 的 问题 解决 能 力 决 定 可 观测 的 过 程 数 据 这 一 基本 假设 。 鉴于 统计 建 模 法 可 以 
基于 模型 预先 构建 导致 外 显 行为 的 (理论 ) 原 因 ， 更 适用 于 以 结果 解释 为 目的 应 用 情境 ， 所 
以 针对 问题 解决 能 力 测量 这 一 议题 ， 统 计 建 模 法 仍 将 发 挥 主要 作用 。 波 普尔 指出 “不 是 经 
验 的 重复 产生 心理 的 信念 ， 而 是 心理 的 信念 产生 经 验 的 重复 ”( 成 素 梅 ， 荣 小 雪 , 2003, p. 
15)， 虽 然 从 已 有 经 验 、 观 测 数据 中 可 以 归纳 出 一 些 有 用 的 结论 和 概括 ， 但 其 也 仅 是 提供 
了 一 些 可 能 的 说 法 。 科 学 发 展 的 逻辑 还 须 是 从 理论 假设 出 发 ， 用 数据 验证 理论 或 者 推翻 理 
论 ， 即 遵循 着 “假设 检验 ”的 过 程 和 “可 证 伪 原 则 ”。 


”可 证 伪 原 则 是 由 波 普 尔 提出 ， 其 认为 科学 的 理论 应 具有 可 证 伪 性 。 一 个 理论 的 可 证 伪 性 就 是 指 该 理论 推导 出 的 结论 在 逻辑 上 或 在 原则 上 有 可 
能 与 一 个 或 一 组 观察 陈述 发 生 抵触 。 
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提出 问题 和 假设 


设计 研究 方案 


检验 假设 做 出 结论 


处 理 分 析 资 料 提出 问题 和 假设 


6. 心理 与 教育 研究 的 一 般 过 程 


最 后 ， 值 得 注意 的 是 ， 尽 管 我 们 强调 基于 过 程 数 据 的 问题 解决 能 力 测 量 及 数据 分 析 方 
法 ， 但 国内 外 相关 研究 似乎 并 没有 否定 根据 传统 结果 数据 推断 个 体 问 题解 决 能 力 的 方式 ， 
只 不 过 利用 过 程 数据 可 以 更 好 地 呈现 出 被 试 解决 问题 的 过 程 ， 有 助 于 了 解 个 体 呈 现 不 同 作 
答 结果 的 历程 ， 有 助 于 更 准确 地 推断 个 体 的 问题 解决 能 力 。 比 如 ,一气呵成 地 解决 特定 问 
题 和 经 过 反复 退 改 地 解决 同一 问题 的 两 位 学 生 ， 尽 管 他 们 的 结果 是 一 样 的 ， 但 他 们 问题 解 
决 能 力 很 可 能 是 不 一 样 的 ( 即 似乎 前 者 更 高 );， 而“ 一气呵成 "和 “反复 退 改正 是 过 程 数据 所 
呈现 的 ， 单 赁 结果 数据 无 法 区 分 两 位 学 生 的 问题 解决 能 力 。 实 际 上 ， 无 论 是 统计 建 模 法 还 
是 数据 挖掘 法 , 都 可 以 联合 分 析 或 同时 利用 结果 数据 和 过 程 数 据 。 比 如 , 在 统计 建 模 法 中 ， 
心理 计量 联合 建 模 可 以 联合 分 析 题 目 作 答 精 度 这 一 结果 数据 和 题目 作 管 时 间 这 一 过 程 数 
据 ; 在 数据 挖掘 法 中 ， 基 于 有 监督 学 习 算法 ， 可 以 利用 结果 数据 作为 典型 行为 数据 的 标签 
(如 ， 满 分 作答 结果 包含 哪些 必要 的 行为 过 程 ? 相 比 于 满分 作答 结果 ， 得 到 部 分 作答 结 
又 缺少 了 哪儿 个 关键 行为 过 程 ?”) 去 训练 分 类 器 ， 而 基于 无 监督 学 习 算法 ， 可 以 利用 结 
数据 来 检验 分 类 的 有 效 性 (如 ， 探 索 出 的 类 别 是 否 较 好 地 分 离 出 某 个 测验 中 的 完成 者 和 未 
完成 者 )。 


4 ”讨论 与 展望 

本 文 对 问题 解决 能 力 测 量 方式 的 发 展 以 及 虚拟 测评 中 过 程 数据 的 分 析 方法 进行 了 梳 
理 。 测 评 方式 的 转变 和 过 程 数据 的 分 析 对 问题 解决 能 力 的 研究 有 重要 意义 ， 一 方面 为 研究 
问题 解决 过 程 及 其 影响 因素 提供 了 技术 的 支持 ， 另 一 方面 也 有 助 于 实现 应 用 过 程 数据 对 其 
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他 高 阶 思维 的 测量 。 但 目前 在 概念 界定 、 数 据 采集 和 分 析 上 仍 有 较 大 的 发 展 空间 ， 未 来 研 
究 者 可 以 从 非 认 知 因素 带 来 的 影响 、 多 模 态 数据 的 利用 、 问 题解 决 能 力 的 发 展 、 其 他 高 阶 
思维 能 力 的 测量 和 问题 解决 能 力 概 念 及 结构 的 界定 五 个 角度 入 手 , 进一步 丰富 有 关 问 题解 
决 能 力 的 测评 研究 。 
4.1 非 认 知 因素 对 问题 解决 能 力 的 影响 

李 一 基 和 黎 坚 (2020) 探 讨 了 复杂 情境 中 的 问题 解决 能 力 的 影响 因素 ， 认 为 问题 解决 能 
力 不 仅 涉及 到 推理 能 力 、 工 作 记 忆 容 量 和 加 工 速度 等 认 知 加 工 能 力 ， 还 受到 个 体 的 元 认 知 
调节 、 知 识 背景 、 动 机 和 情绪 等 非 认 知 因素 的 影响 。 而 现 有 的 过 程 数据 分 析 方 法 仍 主要 停 
留 在 对 特定 认 知 加 工 过 程 的 建 模 与 分 析 上 。 将 问题 解决 能 力 视 为 一 个 笼统 的 单 维 潜在 特质 
或 仅 关注 对 特定 认 知 加 工 过 程 的 测量 , 在 测量 中 忽略 了 其 他 非 认 知 因素 对 问题 解决 能 力 的 
影响 。 像 态度 、 情 感 、 信 念 和 一 些 能 反应 人 格 特质 的 非 认 知 因素 ， 被 称 为 非 认 知 能 力 ( 祖 
ER, Kyllonen, 2019; 徐 俊 怡 , 李 中 权 ，2021)。 非 认 知 能 力 不 仅 影响 着 问题 解决 的 过 程 ， 
也 对 个 体 学 业 和 劳动 力 市 场 表现 有 着 重要 作用 ( 何 瑞 子 , 王 小 军 , 2017)。 如 何 扩展 现 有 数据 
分 析 方 法 ,纳入 对 非 认 知 能 力 的 测量 与 分 析 ， 是 全 面 了 解 个 体 ， 提 高 个 体 问 题解 决 能 力 的 
有 效 途 径 。 
4.2 ”利用 多 模 态 数据 测量 问题 解决 能 

当前 对 过 程 数 据 的 挖掘 和 分 析 主 要 集中 在 题目 作答 精度 、 作 答 时 间 和 行为 序列 上 。 这 
些 数据 还 不 足以 全 面 反 映 个 体 问题 解决 中 的 认 知 及 非 认 知 过 程 。 实 际 上 ， 虚 拟 测评 等 其 他 
计算 机 化 测验 的 自动 化 特性 使 其 能 够 在 个 体 解 决 问 题 过 程 中 实时 记录 不 限于 过 程 数据 的 
多 种 类 型 数据 ( 即 多 模 态 数据 )。 比 如 ， 除 题目 作答 精度 和 题目 作答 时 间 外 ， 通 过 和 骨 入 式 传 
感 器 (例如 ， 眼 动 仪 ) 还 可 以 同步 记录 诸如 眼 动 和 神经 活动 等 生物 计量 数据 (biometric data) 。 
Jeon 等 人 (2021) 通 过 分 析 题 目 作答 精度 和 大 脑 激 活 数据 ， 测 量 了 个 体 的 潜在 能 力 和 大 脑 激 
活水 平 ，Man 和 Harring (2020) 通 过 分 析 题 目 作 答 精 度 、 作 答 时 间 和 眼 动 数据 ， 测 量 了 个 
体 的 潜在 能 力 、 潜 在 加 工 速度 和 潜在 专注 力 水 平 ，Bezirhan 等 人 (2021) 融 合 分 析 了 题目 作 
答 精 度 、 作 答 时 间 和 重 访 题 目次 数 (revisit counts, 考生 在 首次 答 完 菜 题 后 再 次 访问 该 题 的 
次 数 )， 测 量 了 个 体 的 潜在 能 力 、 潜 在 加 工 速 度 和 重 访 题目 倾 和 加。 另外 ，Zoanetti (2010) 的 
研究 中 不 仅 记 录 了 被 试 解决 问题 时 的 操作 信息 ， 同 时 也 搜集 了 被 试 的 口头 表述 信息 (例如 ， 


ChinaXiv FEN AS ”基于 过 程 数据 的 问题 解决 能 力 测量 及 数据 分 析 方 法 


PORTER MN Ali: “ENA” AMET AR (PG, BO. MA), BEM Rat Sat 
程 数 据 下 的 不 同 认 知 过 程 。 比 如 ， 当 不 同 被 试 在 问题 表征 阶段 花费 相似 时 间 时 ， 可 结合 口 
头 表述 信息 去 判断 他 们 是 在 理解 题目 还 是 在 构思 解决 方案 。 

在 虚拟 测评 中 ， 由 于 多 模 态 数据 的 采集 几乎 是 同时 进行 的 ， 且 它们 提供 的 是 有 关 被 试 
在 问题 解决 时 的 平行 信息 ， 因 此 ， 也 有 研究 者 将 它们 称 为 平行 数据 (parallel data; Jeon et al., 
2021)， 比 如 ， 被 试 正 确 作 答 某 题目 耗 时 30 秒 并 投入 20 个 视觉 注视 点 。 对 多 模 态 数据 的 
融合 分 析 ， 为 从 更 全 面 的 视角 理解 个 体 的 问题 解决 能 力 提供 了 可 能 性 。 未 来 ， 随 着 传感器 
的 可 便携 性 增加 及 成 本 下 降 ， 多 模 态 数据 的 采集 与 分 析 势 必 会 常态 化 ， 非 常 值得 心理 与 教 
育 测 量 领 域 研究 者 的 关注 。 

43 ”对 问题 解决 能 力 发 展 的 测量 

测量 和 促进 个 体能 力 的 发 展 是 心理 学 与 教育 学 中 需要 解决 的 重要 问题 (Zhan & He, 
2021)， 对 问题 解决 能 力 发 展 变化 的 研究 事 关 教学 设计 和 教学 策略 的 制定 与 实施 。 然 而 ， 
当前 对 问题 解决 能 力 的 测量 主要 依赖 于 对 横断 过 程 数据 的 分 析 ， 较 少 依赖 于 对 纵向 过 程 数 
据 的 分 析 。 一 方面 是 因为 对 横断 过 程 数据 分 析 尚 未 有 较为 统一 的 认识 和 分 析 范 式 ， 探 讨 可 
分 析 纵 向 过 程 数据 的 方法 可 能 还 为 时 尚 早 ; 另 一 方面 是 因为 纵向 虚拟 测评 工具 的 开发 难度 
更 高 。 

目前 ， 已 有 一 些 研究 尝试 使 用 虚拟 测评 中 的 一 些 外 显 指标 来 评估 个 体 问题 解决 能 力 的 
发 展 。 比 如 ， 张 博 等 人 (2014) 基 于 游戏 化 测评 使 用 由 成 功 完成 推 箱子 题目 的 数量 来 表示 的 
认 知 能 力 、 由 每 题 计划 时 间 与 作 管 总 时 间 的 比值 来 表示 的 元 认 知 能 力 和 由 每 题 所 用 总 步 妆 
来 表示 的 认 知 效率 三 个 指标 对 比 研究 了 普通 儿童 和 超常 儿童 的 问题 解决 能 力 的 发 展 , 研究 
结果 表明 ，11-14 岁 之 间 ， 超 常 儿 童 问 题解 决 能 力 的 发 展 遵 循 着 高 起 点 ， 先 快 后 慢 的 规律 ; 
普通 儿童 则 起 点 较 低 ， 发 展 先 慢 后 快 。 随 着 年 龄 的 增长 ， 二 者 之 间 差 异 逐 渐 缩 小 。 同 时 ， 
该 发 展 模式 也 体现 在 两 组 儿童 的 认 知 能 力 和 元 认 知 能 力 两 个 维度 上 ,但 在 认 知 效率 上 ， 二 
者 之 间 的 差异 并 没有 随 施 测 时 间 不 同 而 发 生 显著 变化 。 但 值得 注意 的 是 这 类 研究 并 没有 直 
接 对 问题 解决 能 力 进行 估计 ， 进 而 实现 对 不 同时 间 点 上 估计 值 的 发 展 的 测量 ;因此 ， 对 问 
题解 决 能 力 发 展 的 测量 仍 值得 后 续 研究 的 关注 。 

44 其 他 高 阶 思 维 能 力 的 测量 
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如 上 文 所 述 ， 除 问题 解决 能 力 外 ， 高 阶 思维 能 力 还 包括 批判 性 思维 能 力 和 创造 性 思维 
能 力 等 ， 其 不 仅 影响 着 个 体 在 学 业 或 事业 上 的 表现 ， 也 是 当代 社会 发 展 对 人 才 的 基本 要 求 
( 钟 志 贤 , 2004; Brookhart, 2010; Carroll & Harris, 2020)。 除 问题 解决 能 力 外 ， 目 前 已 有 很 
多 研究 尝试 使 用 虚拟 测评 去 测量 诸如 创造 力 、 领导 力 等 其 他 高 阶 思维 能 力 (Shute & Rahimi, 
2020; Stanek & Sabat, 2019). F, 2022 年 OECD 也 计划 采用 情景 化 测评 方式 来 测量 个 体 
的 创造 力 (OECD, 2019)。 未 来 ， 随 着 测量 方式 及 数据 分 析 技 术 的 不 断 发 展 ， 充 分 利用 计算 
机 (网 络 ) 技 术 ， 尤 其 是 人 工 智能 ， 并 结合 便携 式 和 低 成 本 的 心理 学 实验 仪器 ， 我 们 有 理由 
相信 可 以 在 大 规模 测验 中 实现 对 高 阶 思维 能 力 的 测量 。 

4.5 问题 解决 能 力 概念 及 结构 的 界定 

当前 国内 外 对 问题 解决 能 力 的 主要 研究 基本 都 是 围绕 OECD (2013) 对 问题 解决 能 力 的 
定义 实施 的 。 首 先 ， 该 定义 并 没有 局 限于 特定 的 任务 情境 ; 因此， 该 定义 所 述 的 问题 解决 
能 力 是 一 种 一 般 化 能 力 或 特质 。 其 次 ， 该 定义 将 其 所 强调 的 认识 加 工 又 进一步 细 分 为 (1) 
探索 和 理解 、(2) 表 征 和 构想 、(3) 计 划 和 执行 和 (4) 监 测 和 反思 ; 同时， 值得 注意 的 是 ， 除 
认 知 加 工 外 ， 该 定义 中 还 特别 强调 了 个 体 参 与 问题 解决 的 意愿 。 因 此 ， 该 定义 所 述 的 问题 
解决 能 力 至 少 具 有 多 维 结构 ， 而 至 于 是 否 满足 高 阶 结构 ， 可 能 需要 后 续 研 究 做 实证 验证 或 
理论 阐述 。 另 外 ， 该 定义 所 述 的 是 个 体 问 题解 决 能 力 ， 目 前 已 有 研究 开始 探讨 协作 问题 解 
决 (collaborative problem solving) (如 , Unal & Cakir, 2021); 而 协作 问题 解决 能 力 与 个 体 问题 
解决 能 力 的 概念 及 结构 有 何 区 别 仍 值得 后 续 研 究 做 进一步 探讨 。 最 后 ，OECD (2013) 对 问 
题解 决 能 力 的 定义 是 否 具 有 跨 时 代 稳 健 性 ( 即 该 定义 是 否 会 随时 代 的 发 展 产生 变化 ) 也 值得 
后 续 研 究 者 们 的 关注 。 
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The measurement of problem-solving competence using process data 
LIU Yaohui!, XU Huiying!, CHEN Qipeng!, ZHAN Peida'? 
(‘Department of Psychology, College of Teacher Education, Zhejiang Normal University, Jinhua, 321004, 
China) 
CKey Laboratory of Intelligent Education Technology and Application of Zhejiang Province, Zhejiang 
Normal University, Jinhua, 321004, China) 

Abstract: Problem-solving competence is an individual's capacity to engage in cognitive 
processing to understand and resolve problem situations where a method of solution is not 
immediately obvious. The measurement of problem-solving competence requires the use of 
relatively more complex and real problem situations to induce the presentation of 
problem-solving behaviors. This brings challenges to both the measurement methods of 
problem-solving competence and the corresponding data analysis methods. Using virtual 
assessments to capture the process data in problem-solving and mining the potential information 
contained therein is a new trend in measuring problem-solving competence in psychometrics. To 
begin with, we reviewed the development of the measurement methods of problem-solving 
competence: from paper-and-pencil tests to virtual assessments. In addition, we summarized two 
types of process data analysis methods: data mining and statistical modeling. Finally, we look 
forward to possible future research directions from five perspectives: the influence of 
non-cognitive factors on problem-solving competence, the use of multimodal data to measure 
problem-solving competence, the measurement of the development of problem-solving 
competence, the measurement of other higher-order thinking competencies, and the definition of 
concept and structure of problem-solving competence. 

Key words: problem-solving competence, processing data, virtual assessment, computer-based 


assessment, higher-order thinking competence 
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附录 : 


PROBLEM SOLVING ABILITY 


1. It is known that general ability is important to success in any course. If the 
students in the experimental class had higher general ability than those in 
the controi class, we migh expect that they would receive higher final grades 
in physics ihan the control students, 

2. Instruction in reading has been found to improve the reading comprehension 
of students in some cases. We should expect that instruction in reading the 
physics textbook would result in higher final grades for the students in the 
experimental class. 


first 
[11 


answer 


* * ko K K RK k k Xo 


1. Mr. K. studied the American Council on Education (ACE) exam scores for 
the students in the experimental and control groups. He found that the aver- 
age scores were about equal. This was important for him to know in order 
that he could proceed to make comparisons of the experimental and control 
groups. 


l 2. Mr. K. obtained the high school percentile ranks (HPR) for each of his 
above students. He found that the students of the control and the experimental 
answer groups had about the same high school ranks, on the average. This suggests 


that no differences are to be found between the groups when the final grades 
[1 |1 | are compared. 


plus a | 1. Many textbooks contain more information than is important. By giving in- 


second struction to the experimental group as to what material should be read most 
thoroughly, we could expect that Mr. K.’s experimental group would get 
higher final grades. 

2. Many students taking science courses are poor readers. The experimental group 
should have a definite advantage over the control group, if they are taught 
how to read the textbook. 


2: IM 


1. Mr. K. found that the students in the control group received about as good a 
grade on the final exam as did students in the experimental group. One should 
conclude that instruction in how to read a textbook does not improve a stu- 
dent's ability to do well in that course. 

2. Mr. K. compared grades in the course for students in the experimental and 
control groups. Since the students did about equally well on the American 
Council on Education Exam when they were compared, we should not expect 
to find a difference in their course grades. 


1. When Mr. K. made a statistical analysis of the differences between the grades 
received by the control group and the experimental group, he could not find 
any statistically significant differences. He should have expected this result, 
since the students in the two groups had about equal high school ranks. 

2. The fact that Mr. K. could find no statistical difference between the control 
and the experimental group's grades illustrates the weakness of statistics. Per- 
haps he would have done better to ask his colleagues to study the two sets of 
grades and decide whether or not they appeared to be different, on the average. 

1. Most science textbooks contain many scientific terms. Help in understand- 
ing these terms should have resulted in higher grades for the experimental 
group. 

2. Physics textbooks often have many graphs and charts. If the instructor helped 
to interpret these, there is a good chance that the experimental group would get 
better grades than the control group. 

1. Ability to concentrate on the material being read has been shown to result in 
higher reading comprehension. Students should be able to concentrate on their 
reading if they are given instruction in textbook reading, and consequently 
they should get higher grades. 

2-2 2. There is some evidence that fast readers are also better readers. If the instruc- 
tor points out how to best read a chapter, the students can read it faster and 
therefore better. This would be a good reason why students with instruction 
in textbook reading might get better grades than students without such in- 
struction. 


1-2 
above 
answer 


plus last 
choice 
2-1 
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图 A1. 问题 解决 能 力 测试 例题 (Novak, 1961). 
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Ancient Egypt- Day24 


图 A2. 植物 大 战 僵 尸 游戏 截屏 (Zhao et al., 2015). 
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Facets Example Observables 


[R] Player tries to place plants on mold, tombstones, seas, etc. 
Analyze givens/constraints 
Player collects falling sun, plant food, coins before they disappear 


Player plants with sun producers in the back (left), attack plants in 
the middle, and defensive plants up front (right) 


Plan a solution pathway 


Player chooses area effect plants * twin sunflowers for levels that 
require “never have more than 15 plants" 


[R] Player uses iceberg lettuce in front of snapdragon 


Use tools effectively/efficiently 


When spring beans fall asleep, player uses iceberg lettuce to 
delay upcoming zombies 


When the fight is intense (e.g., ratio of zombies to plants exceeds 


2:1), player shovels sunflowers in the back and replaces them 
with offensive plants 


A3. 能 力 模型 和 一 些 行为 指标 之 间 的 联系 (Zhao et al., 2015). 


Monitor/evaluate progress 


Player replaces any damaged plants near the endangered ones 
(within 1 square) quickly (within 5 seconds) 
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[2k MP3 PLAYER 
A friend gives you an MP3 player 
that you can use for playing and 
storing music. You can change 
the type of music, and increase or 
decrease the volume and the bass 
level by clicking the three 
buttons on the player. 


(器, 图 , 8) 


Click RESET to return the player 
to its original state. 


Question 1: MP3 PLAYER CP043Q03 


The bottom row of the MP3 player shows the settings that you have chosen. 
Decide whether each of the following statements about the MP3 player is true or false. 
Select "True" or "False" for each statement to show your answer. 


Statement 


You have to set the volume before you can set the bass level. 


Once you have increased the volume, you can only decrease it if you change the type 


True 
You need to use the middle button ( @ ) to change the type of music. @ 
© 
of music you are listening to. © 


QUESTION 2 

Set the MP3 player to Rock, Volume 4, Bass 2. 

Do this using as few clicks as possible. There is no RESET button. 

QUESTION 3 
Shown below are four pictures of the MP3 player's screen. Three of the screens cannot happen if the MP3 player is 
working properly. The remaining screen shows the MP3 player when it is working properly. 


Which screen shows the MP3 player working properly? 


QUESTION 4 


Describe in the box below how you could change the way the MP3 player works so that there is no need to have the 
bottom button ( « ). 
You must still be able to change the type of music, and increase or decrease the volume and the bass level. 


图 A4. PISA 2012 问题 解决 测试 例题 . 
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